Spatial audio methods are gaining a growing interest due to the spread of immersive audio experiences and applications, such as virtual and augmented reality. For these purposes, 3D audio signals are often acquired through arrays of Ambisonics microphones, each comprising four capsules that decompose the sound field in spherical harmonics. In this paper, we propose a dual quaternion representation of the spatial sound field acquired through an array of two First Order Ambisonics (FOA) microphones. The audio signals are encapsulated in a dual quaternion that leverages quaternion algebra properties to exploit correlations among them. This augmented representation with 6 degrees of freedom (6DOF) involves a more accurate coverage of the sound field, resulting in a more precise sound localization and a more immersive audio experience. We evaluate our approach on a sound event localization and detection (SELD) benchmark. We show that our dual quaternion SELD model with temporal convolution blocks (DualQSELD-TCN) achieves better results with respect to real and quaternion-valued baselines thanks to our augmented representation of the sound field. Full code is available at: https://github.com/ispamm/DualQSELD-TCN.
translated by 谷歌翻译
最先进的深度学习模型通常经过大量昂贵的标签培训数据培训。但是,需要详尽的手动注释可能会降低该模型在有限标签制度中的普遍性。半监督的学习和无监督的学习提供了有希望的范式,可以从大量未标记的视觉数据中学习。这些范式的最新进展表明,利用未标记的数据来改善模型概括并提供更好的模型初始化的良好好处。在这项调查中,我们从统一的角度回顾了有关半监督学习(SSL)和无监督学习(UL)的最新高级深度学习算法(SSL)。为了对这些领域的最先进的整体了解,我们提出了统一的分类法。我们将现有代表性SSL和UL分类为全面而有见地的分析,以在不同的计算机视觉任务中的不同学习场景和应用中突出其设计理由。最后,我们讨论了SSL和UL的新兴趋势和公开挑战,以阐明未来的关键研究方向。
translated by 谷歌翻译
在这项工作中,我们评估了如何利用具有周期性激活功能的神经网络可靠地压缩大型多维医学图像数据集,并将概念验证应用应用于4D扩散加权MRI(DMRI)。在医学成像景观中,多维MRI是开发对基础组织微观结构既敏感又具有特异性的生物标志物的关键研究领域。但是,这些数据的高维质在存储和共享功能和相关成本方面构成了挑战,需要适当的算法能够在低维空间中表示信息。深度学习中的最新理论发展表明了周期性激活函数如何成为隐式神经表示图像的强大工具,并且可以用于压缩2D图像。在这里,我们将此方法扩展到4D图像,并展示如何通过正弦激活网络的参数准确地表示任何给定的4D DMRI数据集,从而达到数据压缩率是标准放气算法的10倍。我们的结果表明,所提出的方法优于基准relu和tanh激活感知到均方根误差,峰值信噪比和结构相似性指数。随后使用张量和球形谐波表示的随后分析表明,所提出的损耗压缩可准确再现原始数据的特征,从而导致相对误差约5至10倍,比基准JPEG2000有损耗压缩低约5至10倍,与标准预处理步骤相似,例如MP-PCA表示,表明在当前接受的临床应用水平内丧失信息。
translated by 谷歌翻译
人类在需要快速传达对象信息的游戏中显示出高级的抽象功能。他们将消息内容分解为多个部分,并以可解释的协议将它们传达。为了为机器提供这种功能,我们提出了基于原始的草图抽象任务,其目标是在预算影响下使用一组固定的绘图原始图表示草图。为了解决这项任务,我们的原始匹配网络(PMN)以自我监督的方式学习了草图的可解释抽象。具体而言,PMN将草图的每个笔划都映射到给定集中最相似的原始性,预测了仿射转换将所选原始词与目标冲程对齐的仿射转换。我们学习了端到端的这一笔触至关重要的映射,当原始草图精确地用预测的原语重建时,距离转换损失是最小的。我们的PMN抽象在经验上取得了素描识别和基于草图的图像检索的最高性能,同时也是高度可解释的。这为草图分析打开了新的可能性,例如通过提取定义对象类别的最相关的原始图来比较草图。代码可在https://github.com/explainableml/sketch-primitives上找到。
translated by 谷歌翻译
高质量的校准不确定性估计对于众多现实世界应用至关重要,尤其是对于基于深度学习的部署的ML系统。虽然贝叶斯深度学习技术允许估计不确定性,但使用大规模数据集培训它们是一个昂贵的过程,并不总是会产生与非贝斯尼亚对应物竞争的模型。此外,许多已经经过培训和部署的高性能深度学习模型本质上都是非拜拜西亚人,并且不提供不确定性估计。为了解决这些问题,我们提出了贝叶斯cap,该贝内斯cap学习了冷冻模型的贝叶斯身份映射,从而估算了不确定性。 Bayescap是一种记忆效率的方法,可以在原始数据集的一小部分中进行训练,从而通过为预测提供了校准的不确定性估计,而没有(i)妨碍模型的性能和(ii),从而增强了预审预学的非bayesian计算机视觉模型。需要从头开始昂贵的型号。所提出的方法对各种架构和任务不可知。我们显示了我们方法对各种各样的任务的功效,这些任务具有多种架构,包括图像超分辨率,脱蓝色,内化和关键应用,例如医学图像翻译。此外,我们将派生的不确定性估计值应用于在自主驾驶深度估计等关键情况下检测分布样本。代码可在https://github.com/explainableml/bayescap上找到。
translated by 谷歌翻译
无人驾驶飞机(UAV)是飞机,其飞行可以完全自主,而无需任何人为干预。自然灾害管理是可以使用无人机的最有用和最有前途的领域之一。在本文中,我们专注于紧急情况,并提出使用无人机机队,以帮助营救团队个性化受影响区域内需要帮助的人。我们将这种情况建模为原始图理论问题,称为多部门多行车路由问题,总完成时间最小化(MDMT-VRP-TCT);我们经历了一些与之相似的文献研究中已经研究的问题,并突出了差异,提出了作为MILP作为MILP的数学表述,设计了一种数学框架来快速解决大型实例,并在实验中测试其性能。除了提出的应用程序之外,我们的解决方案在任何情况下都必须解决多部多行车路由问题的任何情况。
translated by 谷歌翻译
最近的生成机器学习模型的进展重新推出了密码猜测领域的研究兴趣。基于GAN的数据驱动密码猜测方法和深度潜变量模型的方法显示了令人印象深刻的泛化性能,并为密码猜测提供了引人注目的属性。在本文中,我们提出了Passflow,一种基于流的生成模型方法来猜测。基于流的模型允许精确的对数似然计算和优化,这实现了精确潜在的变量推断。此外,基于流的模型提供了有意义的潜在空间表示,这使得能够探索潜在空间和插值的特定子空间。我们展示了生成流量的适用性到密码猜测的背景下,脱离了主要限于图像生成的连续空间的流网络的先前应用。我们显示Passflow能够在使用培训集中的密码猜测任务中以前的最先进的GaN的方法,这是一个训练集,该训练集是小于前一体的训练集。此外,生成的样本的定性分析表明,通信流可以准确地模拟原始密码的分布,甚至是不匹配的样本非常类似于人类的密码。
translated by 谷歌翻译